Grobid 专题

作者：游鱼思

Demo: https://kermitt2-grobid.hf.space/

GROBID 的核心优势在于文献管理和元数据提取，包括：

引文识别和链接

作者和附属机构的识别

头部和尾部（例如标题、摘要、关键词、参考文献）的识别和结构化

PDF 文档的内容提取和处理

对于版面恢复，GROBID 可以处理多列布局并提取文本内容，但它的主要目标不是提供精细的版面分析，如复杂图形、表格的布局恢复或详细的页面组织。

运行 Grobin

服务端

基于Java环境，最好是通过Docker运行：

https://grobid.readthedocs.io/en/latest/Run-Grobid/

拉取10G的完整版，含深度学习，精度更高：docker pull grobid/grobid:0.8.1-SNAPSHOT

不使用GPU：docker run --init --ulimit core=0 -p 8070:8070 --restart always grobid/grobid:0.8.1-SNAPSHOT

有个坑：由于作者没有设置 :latest ，所以通过 docker pull grobid/grobid 是获取不到的。

客户端

PDF全文转TEI /api/processFulltextDocument

处理性能

https://github.com/kermitt2/grobid/issues/443#issuecomment-505208132

process with around 10.6 PDF per second (around 915,000 PDF per day, around 20M pages per day) with the node.js client listed above during one week on a 16 CPU machine (16 threads, 32GB RAM, no SDD).

一般设置的并发数=cpu线程数2倍，即可达到最快运行效率。

测试结论

目前Grobin对中文文献的支持并不好，许多论文读取的全文只有部分片段。

但是对英文文献支持较好。

优点：会读取doi、作者等元数据信息。